检索结果

期刊

出版年

关键词

Please wait a minute...

选择:

导出引用
EndNote Ris BibTeX

显示/隐藏图片

Select

1. 面向民国档案印章分割的改进U-Net

杨有, 张汝荟, 许鹏程, 康慷, 翟浩

《计算机应用》唯一官方网站 2023, 43 (3): 943-948. DOI: 10.11772/j.issn.1001-9081.2022020218

摘要（274）

HTML （5）

PDF （1722KB）（97）

精准分割民国档案图像中的印章，有助于该类档案的智慧应用。针对民国档案印侵严重和过多噪声的问题，提出用于印章分割的网络UNet-S。该网络在保留U-Net的编解码器结构和跳跃连接的基础上从三个方面进行改进：一是使用多尺度残差模块替代U-Net原有的卷积层，使UNet-S既能有效提取多尺度特征，又能避免网络退化和梯度爆炸等问题；二是在多尺度残差模块中将普通卷积替换为深度可分离卷积（DSConv），大幅减少网络的参数量；三是使用BCEDiceLoss并根据仿真实验结果优选权重因子，以解决民国档案数据不平衡的问题。实验结果表明，相较于U-Net、DeepLab v2等网络，UNet-S的Dice相似系数（DSC）、平均交并比（mIoU）、平均像素准确率（MPA）取得了最优结果，最多提高了17.38%、32.68%和0.6%，参数量最多下降了76.64%。可见，UNet-S在民国档案数据集中分割效果更佳。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 专利新词发现的双向聚合度特征提取新方法

陈梅婕, 谢振平, 陈晓琪, 许鹏

计算机应用 2020, 40 (3): 631-637. DOI: 10.11772/j.issn.1001-9081.2019071193

摘要（397）

PDF （772KB）（364）

针对通用新词发现方法对专利长词识别效果不佳、专利术语词性搭配模板的灵活性不高，以及缺乏对中文专利长词识别的无监督方法的问题，提出了一种发现专利新词的双向聚合度特征提取新方法。首先，以词中组分的双向条件概率统计信息为基础，构造提出了一个二元词上的双向聚合度统计特征；其次，利用此特征扩展提出了词边界筛选规则；最后，基于新特征和词边界规则实现专利新词的提取。实验结果表明，新方法在整体F-测度值方面，与通用领域新词发现方法相比，提高了6.7个百分点，与两种最新的专利词性搭配模板方法相比，分别提高了19.2个百分点和17.2个百分点，并且较为显著地提高了4~8字专利新词发现的F-测度值。综合地，所提出的方法提升了专利新词发现性能，并且能够更有效地提取专利文本中具有复合形式的长词，同时可以减少对预先训练过程和额外复杂规则库的依赖，具备更好的实用性。

参考文献 | 相关文章 | 多维度评价